Poincaré Embeddings for Learning Hierarchical Representations
#paper #100本読み #NLP #関連研究
Nickel+, NIPS 17
github :https://github.com/facebookresearch/poincare-embeddings
https://scrapbox.io/files/65398d9e0da134001cbe1db0.png
階層構造を考慮した埋め込みが可能、word2vecでは200次元の単語埋め込みを作成していたが、Poincare Embeddingsは同等の性能を5次元で達成
双曲空間にはいくつかのモデルが存在するが、Poincare Embeddingsはポワンカレ球に基づいて表現する。採用する双曲空間の表現によって、異なる性能になる。
ref: word2vec
文中で共起する単語埋め込み同士の類似度を大きく、それ以外を小さくするように学習を進めた
CBOWとskip-gramによって学習
根本的なアイデアは同じで、双曲空間における類似度を大きく、それ以外を小さくする学習を行う
word2vecから、以下の変更を加えたもの
単語埋め込み同士の類似度metrixを「内積」から、「双極空間における距離$ \times (-1)」に
埋め込み表現の最適化を、「SGD」から双極空間での最適化に対応した「Riemannian SGD」に
双曲空間がベクトル空間ではなく、ユークリッド空間のように内積を自然に定義できない
ただし、埋め込み表現の形式や見た目は通常と変わらない(ただのベクトル)
この「ベクトル」が従う数理的な性質がユークリッド空間における埋め込み表現と双曲空間における埋め込み表現で異なる。
ノルム計算、距離計算は普通にできる
参考:ディスクモデルにおける極座標の内積表示 https://math.stackexchange.com/questions/4015171/inner-product-in-hyperbolic-space?ref=ja.stateofaiguides.com
ポワンカレ球表現における距離は、geodesics(測地線)の長さで表現可能
https://scrapbox.io/files/653994c1fc5e4c001c681389.png
灰色の点を始点として、双曲空間での測地線がこのように弧で表現できることを表している
cf. ユークリッド空間:点と点との距離は線分の長さ
実際の距離は以下で定義される
関連研究
Hyperbolic Deep Reinforcement Learning (Cetin+, 22)